با گسترش اینترنت اشیا و افزایش تعداد حسگرها در محیط ابر-مه، نیاز به پاسخ های سریع و کارآمد به درخواست های پردازشی کاربران افزایش یافته است. این مقاله بر راهبرد زمان بندی وظایف با تمرکز بر ادغام زمان بندی و ذخیره سازی نتایج وظایف تأکید دارد، زیرا این ادغام راه حلی عملی برای مدیریت منابع ارائه می دهد. در حالی که تحقیقات قبلی به زمان بندی وظایف پرداخته اند، ولی به ذخیره سازی نتایج وظایف توجه کمی شده است. این مقاله به طور همزمان از هر دو روش برای کاهش زمان پاسخ و کاهش هزینه در محیط ابر-مه استفاده می کند. هدف در زمان بندی وظایف، ذخیره سازی نتایج وظایف پردرخواست برای پاسخگویی سریع به کاربران است. الگوریتم زمان بندی و ذخیره سازی در تعیین منابع مناسب برای پردازش و ذخیره سازی حیاتی است. در این تحقیق از یادگیری تقویتی برای تشخیص منابع بهینه و یک زمان بند بلادرنگ مبتنی بر بازیگر-منتقد برای محیط های ابر-مه استفاده شده است. این چارچوب از یادگیری در محیط های پویا و پیوسته با چند عامل پشتیبانی می کند. نتایج تجربی، بهبود قابل توجهی در زمان پاسخ و هزینه های عملیاتی نسبت به الگوریتم های پیشرفته مانند A3C-R2N2، DDQN، LR-MMT و LRR-MMT را نشان می دهد.